在本文中,我们提出了一个称为SDFE-LV的大规模,多源和不受约束的数据库,用于发现长视频中完整动态面部表达的发作和偏移帧,这被称为动态面部表情斑点的主题(DFE)和许多面部表达分析任务的重要步骤。具体而言,SDFE-LV由1,191个长视频组成,每个视频包含一个或多个完整的动态面部表情。此外,在相应的长视频中,每个完整的动态面部表达都被10次训练有素的注释者独立标记了五次。据我们所知,SDFE-LV是DFES任务的第一个无限制的大规模数据库,其长期视频是从多个现实世界/密切现实世界中的媒体来源收集的,例如电视采访,纪录片,电影和电影,以及我们媒体短视频。因此,在实践中,SDFE-LV数据库上的DFE任务将遇到许多困难,例如头部姿势变化,遮挡和照明。我们还通过使用许多最新的深度发现方法,从不同角度提供了全面的基准评估,因此对DFE感兴趣的研究人员可以快速而轻松地开始。最后,通过有关实验评估结果的深入讨论,我们试图指出几个有意义的方向来处理DFES任务,并希望将来DFE可以更好地进步。此外,SDFE-LV将仅尽快自由发布供学术使用。
translated by 谷歌翻译
变压器的扎实结果使它们在各种自然语言和视觉任务中占上风。作为变压器中的默认组件,层归一化(LN)将每个令牌内的激活归一化,以增强稳健性。但是,LN需要在推理以及除法和平方根操作中进行直接统计计算,从而导致硬件效率低下。更重要的是,用其他硬件有效的标准化方案(例如,批发归一化)代替LN会导致性能较低,甚至在训练中崩溃。我们发现,这种困境是由激活统计的异常行为引起的,包括对迭代的大波动和跨层的极端异常值。为了解决这些问题,我们提出了统一的归一化(UN),可以通过与其他线性操作融合并在LN上实现可比性的性能来加快推断。联合国通过量身定制的波动平滑策略校准激活和梯度统计来努力提高性能。同时,采用自适应离群过滤策略来避免在本文中在理论上证明并在实验上验证的训练中崩溃。我们证明,通过对语言和视觉任务进行广泛的实验,联合国可以成为LN的有效替代品。此外,我们评估了我们方法在GPU上的效率。配备了联合国的变压器享受约31%的推理速度和近18%的记忆力减少。代码将在https://github.com/hikvision-research/unified-normalization上发布。
translated by 谷歌翻译
文本检测和识别是现代OCR系统的重要组成部分。大多数OCR方法试图在检测阶段获得准确的文本框,该框架用作文本识别阶段的输入。我们观察到,当使用紧密的文本边界框作为输入时,由于边界框之间的不一致和文本识别的深度表示,文本识别器通常无法实现最佳性能。在本文中,我们提出了Box调节器,这是一种基于增强学习的方法,用于调整每个文本边界框的形状,以使其与文本识别模型更兼容。此外,在处理诸如合成对现实之类的跨域问题时,所提出的方法可显着降低源和目标域之间域分布的不匹配。实验表明,当使用调整后的边界框作为训练的基础真相时,端到端文本识别系统的性能可以得到改善。具体而言,在几个基准数据集以用于场景文本理解上,拟议的方法在端到端文本识别任务上平均比最先进的文本togpters的f得分为2.0%,而域上的F-评分为4.6%。适应任务。
translated by 谷歌翻译
Point cloud completion is a generation and estimation issue derived from the partial point clouds, which plays a vital role in the applications in 3D computer vision. The progress of deep learning (DL) has impressively improved the capability and robustness of point cloud completion. However, the quality of completed point clouds is still needed to be further enhanced to meet the practical utilization. Therefore, this work aims to conduct a comprehensive survey on various methods, including point-based, convolution-based, graph-based, and generative model-based approaches, etc. And this survey summarizes the comparisons among these methods to provoke further research insights. Besides, this review sums up the commonly used datasets and illustrates the applications of point cloud completion. Eventually, we also discussed possible research trends in this promptly expanding field.
translated by 谷歌翻译
神经科学领域的研究揭示了情绪模式和脑功能区域之间的关系,展示了不同脑区之间的动态关系是影响通过脑电图(EEG)确定的情绪识别的必要因素。此外,在脑电情绪识别中,我们可以观察到,基于相同的脑电图数据,我们可以观察到粗粒情绪之间的粗粒情绪之间的边界;这表明大型粗糙和小细粒度情绪变化的同意。因此,来自粗糙到细粒度类别的渐进分类过程可能有助于EEG情绪识别。因此,在本研究中,我们提出了一种逐步的图表卷积网络(PGCN),用于捕获EEG情绪信号中的这种固有特性,并逐步学习鉴别性EEG特征。为了适应不同的EEG模式,我们构建了一个双图模块,以表征不同EEG通道之间的内在关系,其中包含神经科学研究的动态功能连接和脑区的静态空间接近信息。此外,通过观察粗糙和细粒度的情绪之间的关系,我们采用双头模块,使PGCN能够逐步了解更多辨别性EEG特征,从粗粒(简单)到细粒度的类别(困难),参考情绪的分层特征。为了验证我们模型的性能,在两个公共数据集中进行了广泛的实验:种子-46和多模态生理情绪数据库(MPED)。
translated by 谷歌翻译
采样是图形神经网络(GNN)培训的关键操作,有助于降低成本。以前的文献已经通过数学和统计方法探索了改进采样算法。但是,采样算法和硬件之间存在差距。在不考虑硬件的情况下,算法设计人员仅在算法级别优化采样,缺少通过利用硬件功能来促进现有采样算法效率的巨大潜力。在本文中,我们开创了一个为主流采样算法提出的统一编程模型,称为GNNSampler,涵盖了各个类别中采样算法的关键过程。其次,为了利用硬件功能,我们选择数据局部性作为案例研究,并在图中探索节点及其邻居之间的数据位置,以减轻采样中不规则的内存访问。第三,我们在GNNSampler中实现了各种采样算法的局部感知优化,以优化一般的采样过程。最后,我们强调在大图数据集上进行实验,以分析训练时间,准确性和硬件级指标之间的相关性。广泛的实验表明,我们的方法通用到主流采样算法,并有助于大大减少训练时间,尤其是在大规模图中。
translated by 谷歌翻译
本文回顾了关于压缩视频质量增强质量的第一个NTIRE挑战,重点是拟议的方法和结果。在此挑战中,采用了新的大型不同视频(LDV)数据集。挑战有三个曲目。Track 1和2的目标是增强HEVC在固定QP上压缩的视频,而Track 3旨在增强X265压缩的视频,以固定的位速率压缩。此外,轨道1和3的质量提高了提高保真度(PSNR)的目标,以及提高感知质量的2个目标。这三个曲目完全吸引了482个注册。在测试阶段,分别提交了12个团队,8支球队和11支球队,分别提交了轨道1、2和3的最终结果。拟议的方法和解决方案衡量视频质量增强的最先进。挑战的首页:https://github.com/renyang-home/ntire21_venh
translated by 谷歌翻译
尽管来自视频的3D人类姿势估算的巨大进展,但是充分利用冗余2D姿势序列来学习用于生成一个3D姿势的代表表示的开放问题。为此,我们提出了一种改进的基于变压器的架构,称为冲压变压器,简单地有效地将长期的2D联合位置升高到单个3D姿势。具体地,采用Vanilla变压器编码器(VTE)来模拟2D姿势序列的远程依赖性。为了减少序列的冗余,vte的前馈网络中的完全连接的层被冲击卷积替换,以逐步缩小序列长度并从本地上下文聚合信息。修改的VTE称为STRIVEIVERCHER ENCODER(STE),其构建在VTE的输出时。 STE不仅有效地将远程信息聚集到分层全球和本地时尚的单载体表示,而且显着降低了计算成本。此外,全序列和单个目标帧尺度都设计了全序,分别适用于VTE和ST的输出。该方案与单个目标帧监督结合施加额外的时间平滑度约束,因此有助于产生更平滑和更准确的3D姿势。所提出的轮廓变压器在两个具有挑战性的基准数据集,Human3.6M和HumanVa-I中进行评估,并通过更少的参数实现最先进的结果。代码和模型可用于\ url {https://github.com/vegetebird/stridedtransformer-pose3d}。
translated by 谷歌翻译
Blind image super-resolution (Blind-SR) aims to recover a high-resolution (HR) image from its corresponding low-resolution (LR) input image with unknown degradations. Most of the existing works design an explicit degradation estimator for each degradation to guide SR. However, it is infeasible to provide concrete labels of multiple degradation combinations (\eg, blur, noise, jpeg compression) to supervise the degradation estimator training. In addition, these special designs for certain degradation, such as blur, impedes the models from being generalized to handle different degradations. To this end, it is necessary to design an implicit degradation estimator that can extract discriminative degradation representation for all degradations without relying on the supervision of degradation ground-truth. In this paper, we propose a Knowledge Distillation based Blind-SR network (KDSR). It consists of a knowledge distillation based implicit degradation estimator network (KD-IDE) and an efficient SR network. To learn the KDSR model, we first train a teacher network: KD-IDE$_{T}$. It takes paired HR and LR patches as inputs and is optimized with the SR network jointly. Then, we further train a student network KD-IDE$_{S}$, which only takes LR images as input and learns to extract the same implicit degradation representation (IDR) as KD-IDE$_{T}$. In addition, to fully use extracted IDR, we design a simple, strong, and efficient IDR based dynamic convolution residual block (IDR-DCRB) to build an SR network. We conduct extensive experiments under classic and real-world degradation settings. The results show that KDSR achieves SOTA performance and can generalize to various degradation processes. The source codes and pre-trained models will be released.
translated by 谷歌翻译
基于CNN的大多数超分辨率(SR)方法假设降解是已知的(\ eg,bicubic)。当降解与假设不同时,这些方法将遭受严重的性能下降。因此,一些方法试图通过多种降解的复杂组合来培训SR网络,以涵盖实际的降解空间。为了适应多个未知降解,引入显式降解估计器实际上可以促进SR性能。然而,以前的显式降解估计方法通常可以通过对地面模糊内核的监督来预测高斯的模糊,并且估计错误可能导致SR失败。因此,有必要设计一种可以提取隐式歧视性降解表示的方法。为此,我们提出了一个基于元学习的区域退化意识SR网络(MRDA),包括元学习网络(MLN),降级提取网络(DEN)和区域退化意识SR Network(RDAN)。为了处理缺乏地面污染的降解,我们使用MLN在几次迭代后快速适应特定的复合物降解并提取隐式降解信息。随后,教师网络MRDA $ _ {T} $旨在进一步利用MLN为SR提取的降解信息。但是,MLN需要在配对的低分辨率(LR)和相应的高分辨率(HR)图像上进行迭代,这在推理阶段不可用。因此,我们采用知识蒸馏(KD)来使学生网络学会直接提取与LR图像的老师相同的隐式退化表示(IDR)。
translated by 谷歌翻译